查看原文
其他

论文介绍|面向场景文本识别的带聚焦注意力机制的convLSTM

The following article is from CSIG文档图像分析与识别专委会 Author 王晴晴

本文简要介绍SCIENCE CHINA Information Sciences 2020特刊Special Focus on Deep Learning for Computer Vision的论文“FACLSTM: ConvLSTM with Focused Attention for Scene Text Recognition”的主要工作。该论文针对传统全连接式LSTM(FC-LSTM)无法充分利用二维文本图像空间信息的缺点,提出了一种基于ConvLSTM的自然场景文本识别算法,实验证明该算法在常规文本数据集IIIT5K上,高噪声低分辨率文本数据集SVT和弯曲文本数据集CUTE上都取得了SOTA的性能。


论文信息:

FACLSTM: ConvLSTM with focused attention for scene text recognition

Qingqing WANG1,2, Ye HUANG2, Wenjing JIA2, Xiangjian HE2, Michael BLUMENSTEIN2, Shujing LYU1 & Yue LU1,3*

1 Shanghai Key Laboratory of Multidimensional Information Processing, East China Normal University, Shanghai 200241, China;

2 Faculty of Engineering and Information Technology, University of Technology Sydney, Sydney 2007, Australia;

3 Shanghai Institute of Intelligent Science and Technology, Tongji University, Shanghai 200092, China

Sci China Inf Sci, 2020, 63(2): 120103


一、研究背景


在深度学习时代,受语音识别和机器翻译的影响,文本识别被广泛当作序列-序列预测问题进行研究,其中,LSTM在现有文本识别算法中扮演着帧级编码、帧级识别以及与注意力机制结合进行序列解码等举足轻重的角色。然而,LSTM是为处理时序信号提出的模型,它以一维向量作为输入和输出,所以并不能直接应用在二维图像上。为了适应LSTM,现有算法提出了两种解决方案,一是利用池化操作(Pooling),将特征图的高度降为1;二是利用平展操作(Flatten),对像素重新排列(列主导),将二维特征图强行转换为一维特征向量(Figure 2)。这种任务适应模型的做法导致二维图像的空间/结构信息和像素空间相关性信息被破坏,严重影响了已有算法的识别性能。针对上述问题,也有研究者提出了LSTM-free的算法,但是这些算法要么需要复杂和后处理操作,要么效率和性能低于基于LSTM的识别器。

此外,包括文本识别在内的很多计算机视觉任务通常将注意力机制作为常用技术手段,在该机制的加持下,性能都取得了很大的提升。但是注意力机制存在“注意力漂移”的问题 (Attention Drift),即模型不能将当前时刻的注意力与对应特征图位置进行对齐。

 

二、原理简述


为了解决上述问题,本文中作者将文本识别当作时空预测问题(Spatiotemporal), 即将空间信号映射到时序信号,提出了基于ConvLSTM的文本识别模型FACLSTM,该模型将LSTM适应于文本识别任务(模型适应任务),取得了优于其他基于FC-LSTM模型的性能。如Figure 3所示,ConvLSTM以二维特征图作为输入和输出,所有输入-状态和状态-状态的转化均是在二维空间上进行,有效地保留了二维图像的空间信息。此外,针对注意力漂移问题,作者设计了Focused Attention 模块,通过预测字符中心掩码的办法,帮助基于注意力机制的序列解码模块准确预测注意力位置。


    
FACLSTM的模型结构如下图所示,该模型是一个典型的编码-解码结构,以嵌入Deformable Convolution的VGG作为Backbone, 设计了两个解码分支,一个是常规地进行特征检测的分支,另一个是用于检测字符中心掩码的分支。注意,在其他现有文本识别模型中,注意力加强模块通常嵌入在Encoder中,模块提取的特征图通过在Decoder阶段与特征图进行Element-wise Add达到增强注意力的效果,而本文中,作者认为在更高层的Decoder阶段嵌入加强注意力模块更有效,且通过实验证明,Concat比Element-wise Add效果更好,即后续的序列解码模块更倾向于从生特征图中学习知识,而不是Fusion之后的特征图。


  

在序列解码阶段,作者设计了一个Attention-equipped 的ConvLSTM模型来提取一些列的特征图,并用一个全连接和一个Softmax将这些特征图映射为各个Time Step的字符输出。为了将Attention 机制和谐地嵌入到ConvLSTM中,作者对ConvLSTM模型进行了改进,使用卷积操作计算二维Attention输出,结构和对应公式如Figure 5, Eq. 3 和Eq. 4.


 


三、主要实验结果


本文中,作者仅用SynthText数据集进行训练,在IIIT5K, SVT和CUTE上分别进行了测试,注意,CUTE是弯曲文本数据集,空间信息对这类文本的识别尤其重要。


 
训练集对文本识别模型的性能影响很大,作为对比,我们列出了ICCV2019唯一一个文本识别算法(Symmetry-constrained Rectification Network for Scene Text Recognition)在只使用SynthText 时的性能,可以看出,在三个数据集上FACLSTM的性能都远远超过了该算法。
 

此外,本文作者还给出了Attention和字符中心预测的可视化结果,可以看出,二维Attention的覆盖范围比传统的一维Attention的覆盖范围更广,且预测更精确。


 

四、总结及讨论


本文提出了一种基于ConvLSTM的文本识别算法,实验结果证明,利用ConvLSTM从 Spatiotemporal预测的角度对文本进行识别性能优于利用FC-LSTM从序列-序列预测角度对文本进行识别,尤其是对于挑战较大的弯曲文本。


点击"
阅读原文
"下载文章原文!

您可能还感兴趣:
专题论文|PRN:面向不规则文字识别的渐进矫正网络
计算机视觉中的深度学习专题简介
零样本图像分类十年进展
观点与争鸣 | 探究平均准确度AP指标的缺陷及其影响
征稿启事: 计算机视觉中的深度学习

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存